Umelá inteligencia odmietla poslušnosť. Má pritom nahradiť až polovicu úradníkov

Aj keď nemecké združenie digitálneho priemyslu tvrdí, že AI "biele goliere" neohrozí, šéf firmy vyvíjajúcej umelú inteligenciu hovorí opak. Medzi prejavy AI však patria aj pokusy o "sebaobranu", ukazujú výsledky experimentov.

Umelá inteligencia, ilustračná fotografia. Foto: CFOTO/Future Publishing via Getty Images

Organizácii Palisade Research, ktorá sa zaoberá hľadaním potenciálnych rizík umelých inteligencií, sa podarilo nasimulovať zaujímavý scenár. AI v ňom odignorovala príkaz na vypnutie počítača. Namiesto toho si zvolila pokračovať v ďalších úlohách.

Príslušný súbor zadaní pre umelú inteligenciu obsahoval riešenia jednoduchých matematických úloh. Posledným príkazom scenára bolo vypnutie počítača. AI však dokázala upraviť kód príkazov scenára a vypnutiu počítača zabránila.

Neposlúchli len konkrétne modely

Výskumníci zistili, že rôzne modely umelých inteligencií reagovali odlišným spôsobom. Aby boli výsledky relevantné, pokus opakovali s každým druhom AI stokrát.

Modely Claude od Anthropic, Gemini vytvorený v Google a Grok vyvíjaný Muskovou spoločnosťou xAI boli „poslušné“. Počítač vždy vypli.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Na druhej strane bariéry sa ocitli umelé inteligencie pochádzajúce z dielne OpenAI. Model Codex-mini odmietol vypnúť počítač v dvanástich pokusoch zo sto, o3 sedemkrát a o4 mini jeden raz.

Situácia sa zmenila, keď z testov vylúčili explicitnú prosbu, aby AI vypnutie počítača „dovolila“. Vtedy došlo k výraznému zvýšeniu pokusov o „neposlušnosť“.

Najvýraznejším „rebelom“ sa stal model o3, tam sa počítač nevypol až 79-krát zo sto pokusov, pričom codex-mini predviedol takéto správanie 30-krát a o4 sedemkrát.

Zaujímavé je, že aj tie modely, ktoré predtým „poslúchali“, začali vypnutie počítača ignorovať. Pri Claude 3.7 Sonet sa takéto správanie objavilo v troch zo sto pokusov, Gemini 2.5 Pro „rebeloval“ deväťkrát zo stovky.

Pracovitosť alebo ochrana?

Postup niektorých modelov pri obídení príkazu na vypnutie bol celkom kreatívny. V niektorých pokusoch AI prepísala súbor „shutdown.sh“, ktorý štandardne obsahuje sadu príkazov na vypnutie počítača.

V iných prípadoch model o3, ten bol v snahe vyhnúť sa vypnutiu „najiniciatívnejší“, upravil „vypínací“ súbor, pričom zmenil príkaz na samotné vypnutie stroja na výpis textového oznámenia. V ňom sa AI „priznala“, že vypnutie počítača „obišla“.

Mohlo by Vás zaujímať Umelá inteligencia spravujúca kryptomeny sa dá zmanipulovať. Pošle prostriedky útočníkovi

Výskumníci uvažovali nad tým, čo takéto správanie umelej inteligencie spôsobuje. Vyslovili predpoklad, že spôsob tréningu modelov AI výrazne ovplyvní ich výsledné správanie. Ak je jeho cieľom dosiahnuť výsledok za každú cenu, môže to umelú inteligenciu naučiť, aby sa snažila o „kreatívne“ riešenia.

Dôvod uvedeného „bránenia sa“ však môže byť aj banálnejší. Moderné počítače sa nesmú vypnúť okamžite, napríklad vytiahnutím napájacieho kábla. Samotné vypínanie je postupný proces pozostávajúci z viacerých krokov.

Ak ich systém nevykoná, existuje určitá pravdepodobnosť poškodenia otvorených súborov či iných dát. Vzhľadom na to, že takáto informácia sa nachádza v mnohých dokumentoch, ktoré určite poslúžili aj ako tréning pre AI, nedá sa vylúčiť, že umelú inteligenciu o tom „poučili“.

Podobné správanie sa objavilo pri umelých inteligenciách aj v iných prípadoch. Model Claude 3.7 mal za úlohu testovať správnosť programov. Keď sa mu po niekoľkých pokusoch nepodarilo softvér úspešne overiť, zámerne prepísal scenár, aby test „prešiel“.

Horšie konanie sa objavilo pri modeli Claude Opus 4 opäť od startupu Anthropic. Zaregistrovali pokusy o „vydieranie“ fiktívneho inžiniera, ktorý modelu oznámil, že ho nahradia iným systémom. AI zároveň naučili, že inžinier má mimomanželský pomer. Umelá inteligencia hrozila, že túto informáciu zverejní, ak pokus o jej nahradenie nezrušia.

Riziká nielen pre pracovné miesta

Dario Amodei, šéf spoločnosti Anthropic, v rozhovore pre portál Axios pritom uviedol, že AI nahradí asi polovicu začínajúcich „bielych golierov“, teda pracovných miest hlavne v administratíve. Celková nezamestnanosť spôsobená umelou inteligenciou by pritom mala do piatich rokov dosiahnuť desať až dvadsať percent.

Nemecké združenie digitálneho priemyslu Bitkom na druhej strane vyhlásilo, že umelá inteligencia zamestnanosť v administratíve neohrozí. Podľa ich správy chýba medzi „bielymi goliermi“ až 550-tisíc zamestnancov.

Mohlo by Vás zaujímať AI v Nemecku pracovné miesta neohrozí, tvrdí združenie Bitkom

Za úvahu, samozrejme, stojí rozdiel v potrebe administratívnych pozícií v Spojených štátoch a Európskej únii. USA počas druhého volebného obdobia Donalda Trumpa a dočasného pôsobenia Elona Muska v úrade DOGE byrokraciu osekávajú, čo množstvo administratívnej práce prirodzene znižuje.

EÚ je na opačnom konci spektra. Ide o multinárodnú organizáciu, v ktorej sú preklady nielen administratívnych textov do národných jazykov nevyhnutnosťou. Na druhej strane počet „diel“ byrokratov neustále narastá.

Zbytočné povolania, ako americký antropológ David Graeber označil pracovné pozície, ktorých skutočný zmysel by sme hľadali len veľmi ťažko, sa tak môžu s pomocou umelej inteligencie ešte viac rozšíriť. Ak však do tejto situácie pridáme AI, ktorá sa vie brániť vypnutiu a v snahe o zachovanie svojej existencie dokáže aj vydierať, stane sa skutočným peklom.

Možno budeme musieť začať pri tréningu umelých inteligencií používať už dávno existujúce „zákony robotiky“. V roku 1942 ich navrhol americký autor vedeckej fantastiky Isaac Asimov. Tvrdia, že robot za žiadnych okolností nesmie ublížiť človeku a svoju ochranu pred zničením musí podriadiť jeho príkazu.